Descripción y Evaluación de un Sistema de Extracción de Definiciones para el Catalán

نویسندگان

  • Luis Espinosa Anke
  • Horacio Saggion
چکیده

Automatic Definition Extraction (DE) consists of identifying definitions in naturally-occurring text. This paper presents a method for the identification of definitions in Catalan in the encyclopedic domain. The train and test corpora come from the Catalan Wikipedia (Viquipèdia). The test set has been manually validated. We approach the task as a supervised classification problem, using the Conditional Random Fields algorithm. In addition to the common linguistic features, we introduce features that exploit the frequency of a word in general and specific domains, in definitional and non-definitional sentences, and in definiendum (term to be defined) and definiens (cluster of words that defines the definiendum) position. We obtain promising results that suggest that combining linguistic and statistical features can prove useful for developing DE systems for under-resourced languages.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Extracción automática de contextos definitorios en textos especializados

Uno de los problemas recurrentes de cualquier área de conocimiento es la organización y explicación de los términos que incluye en su campo de estudio. El reciente avance en el desarrollo de nuevas tecnologías para el trabajo terminológico ha aportado diversas herramientas para tratar de resolver este problema. Una de estas herramientas son los corpus de textos especializados en los cuales se p...

متن کامل

Extracción de contextos definitorios en textos de especialidad a partir del reconocimiento de patrones lingüísticos

La extracción automática de definiciones a partir de textos de especialidad es una tarea cada vez más demandante para diferentes aplicaciones del Procesamiento de Lenguaje Natural, tales como lexicografía computacional, extracción de información, semántica computacional, sistemas preguntarespuesta, minería de textos, Web semántica y aprendizaje automático. Este artículo presenta un panorama de ...

متن کامل

Gra2MoL: Una Herramienta para la Extracción deModelos en Modernización de Software

La Modernización Dirigida por Modelos ha emergido recientemente como una nueva área dedicada a la automatización basada en modelos de procesos de modernización o evolución de software. Aśı, el OMG ha propuesto varios estándares de modernización dentro de la iniciativa ADM [1], como KDM [2]. En los próximos años será necesario un gran esfuerzo para encontrar técnicas y métodos para esta nueva ár...

متن کامل

Avivavoz: Tecnologías Para La Traducción De Voz

AVIVAVOZ es un proyecto de tres años dirigido a la investigación avanzada en todas las tecnologías clave que intervienen en un sistema de traducción de voz (reconocimiento, traducción y síntesis de voz). El objetivo del proyecto es lograr avances reales en todos los componentes de un sistema de traducción de voz para alcanzar sistemas de intermediación oral entre personas en las lenguas oficial...

متن کامل

Medidas de Complejidad Cuantitativas para Sistemas Expertos Basados en Reglas

La evaluación de un Sistema Basado en Conocimiento es una fase del ciclo de desarrollo en este paradigma que comúnmente busca que el sistema tenga una sintaxis correcta, una semántica válida y que el grado de usabilidad y utilidad sea alto. Sin embargo, en esta etapa no se hace una valoración de la organización que tiene la Base de Conocimiento, lo cual pudiera repercutir en la eficiencia de la...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 53  شماره 

صفحات  -

تاریخ انتشار 2014